松尾研 GENIAC LLM開発マネジメント
GENIAC 採択プロジェクト 多様な日本語能力の向上を目指した公開の基盤モデル開発 | 東京大学松尾研究室 - Matsuo Lab
GENIAC チーム紹介 | 東京大学松尾研究室 - Matsuo Lab
松尾研| GENIAC LLM開発 プロジェクト | Zenn
LLM開発プロセス
データセットの選定・収集・加工
事前学習用データセットの選定・収集・加工
ファインチューニング用データセットの選定・収集・加工
トークナイザー選定
データセットのトークナイゼーション
モデルアーキテクチャ選定
モデル実装
事前学習
ファインチューニング
モデル評価
スケジュール
3月~4月:準備運動
0.1Bモデル学習
前半:各自1GPU
後半:各自マルチノード
4月~5月:コンペ本番
10Bモデル学習
6~8月:特典
50Bモデル学習
コンペ内容
LLM-jp-eval
JGLUE
JMT-bench
Nejumi Learderboard Neo
計算資源
H100 GPU 80GB x 21ノード
1ノード 8GPU (640GB VRAM)
168GPU (1.3TB VRAM)
GCP A3 VM
NVIDIA H100 GPU 搭載の AI に特化した A3 スーパーコンピュータの発表 | Google Cloud 公式ブログ
8チームで共有
独自のジョブシステムがある
制約
事前学習からのスクラッチ開発
以下のデータセットは禁止
日本語データ:Jaster(JGLUE含む)、MT-Bench(日本語)
英語データ:MMLU、MT-Bench(英語)